Hadoop,作为被大肆宣传的大数据利器,设计初衷是为搜索引擎建立网页索引,而不是处理信用卡号,所以安全并不是其重点考虑的问题。基于这个原因,许多企业对Hadoop都是浅尝辄止。目前,包括Cloudera、Intel在内等多个Hadoop发行版厂商,都在实行或制定安全方面的计划。
专利和补丁
Zettaset是一家为Hadoop发行版提供安全特性的公司,其董事长兼CEO Jim Vogt称:“今年很多公司都对Hadoop技术很感兴趣,但是其中很大一部分因为安全问题都望而却步。当真正衡量某一技术在一个企业或一个更广阔的市场的可行性时,安全问题是必须要考虑的。”
据Vogt称,Zettaset已经在管理和控制分布在Hadoop集群上多个服务器的加密密钥技术上有了专利方法。为了在Hadoop上实现安全的前提下,最大限度控制性能降低,Zettaset明年将推出一个在集群中实现优先数据存储的系统。如果某块数据经常被访问,那么将这部分数据放在SSD会比在硬盘执行速度更快。当然,指出现有的不足,使用户意识到自己的基础设施是不安全的,直接受益者肯定是Zettaset以及其它提供安全服务的公司。
Cloudera产品副总裁Charles Zedlewski认为,安全问题主要设计四个方面:
身份验证:怎样确认你是否是某个系统的用户。 授权:可以控制用户能够读取的信息,以及针对特定数据用户可以进行的操作。 审计:审计可以提供满足监管需求的文档支持,查看是否有违规操作。 加密:为数据安全提供更多保障。目前,在MapReduce、HBase、Hive和其它Hadoop程序中,原生的Apache Hadoop提供了其中的某些特性。比如,Hadoop中有严格的身份验证机制。Zedlewski认为从客户的角度考虑我们还需要提高的地方在于使其更易于安装和配置。
Zedlewski说:“加密是另一回事。数据可以在网络传输过程中被加密,这个功能两年前就实现了。涉及到‘静止’数据的加密,一些公司会采用如Gazzang和Vormetric等安全供应商提供的现成的加密库。”Cloudera正在考虑在自己的产品中加入加密功能,客户就不用再找其它安全服务提供商。Cloudera作为Hadoop市场领军者,这一做法很值得赞赏。
Zedlewski认为在授权方面,Hadoop还不够成熟。Cloudera希望客户可以自己决定某个表的授权粒度。例如一个10000条信用卡号码的表,如果你有查看部分数据的权限,那么基于表粒度级的授权机制,你没有访问这个表的权限,而基于记录粒度的授权机制,你能看到50条特定范围内的数据。换句话说,细粒度的授权机制,可以使更多员工获得访问权限。
Rhino项目
大约3个月前,刚刚加入Hadoop阵营的Intel,在Rhino项目下列出了希望在Hadoop中实现的安全特性。
在身份验证方面,实现一个不依赖外部源的新的内部系统,同时提供更好的单点登录功能。授权机制方面,可以跨越许多Hadoop应用程序,从批处理的MapReduce到HBase数据库。这些功能会被加入到Intel的Hadoop发行版中,其它发行版中可以作为补丁加入。
Knox项目
来自Hortonworks的几位工程师今年一直活跃在某个名为Knox的孵化器项目。Hortonworks的企业战略副总裁Shaun Connolly解释说,这个项目就像在Hadoop集群中的服务器周围构造一个大的虚拟围栏,对于可用的Hadoop服务只有一个安全网关可以进入。
MapR公司首席营销官Jack Norris说:”MapR在试图加入加密密钥管理功能,包括对‘静止’数据的加密。就像Cloudera,MapR希望使安全问题更容易实现,尤其是传输过程中的数据加密和身份验证。”(编译/周小璐 审校/仲浩)
Nutch集成slor的索引方法介绍? ?* 建立索引? ?* @param solrUrl solr的web地址? ?* @param crawlDb 爬取DB的存放路径:\crawl\crawldb
我们想了个办法:把海量数据分成小块,让一台机器处理一小块数据,所有的机器同时工作。最后把结 果汇总起来。这就是“并行计算”。hadoop中的MapReduce就是专门用来做分布式计算的并行处理框架。hadoop就是用来解决大数据的存储和计算的。
以Hadoop Tutorial为主体带大家走一遍如何使用Hadoop分析数据!MapReduce框架由一个Jobracker(通常简称JT)和数个TaskTracker(TT)组成(在cdh4中如果使用了Jobtracker HA特性,则会有2个Jobtracer,其中只有一个为active,另一个作为standby处于inactive状态)。JobTr
重谈下MapReduce框架中用户经常使用的一些接口或类的详细内容。了解这些会极大帮助你实现、配置和优化MR任务。当然javadoc中对每个class或接口都进行了更全面的陈述,这里只是一个指引教程。
hadoop常见问题解决:WARN mapred.LocalJobRunner: job_local910166057_0001o
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。